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(g) Proc6de d'identification d'objets dans une image. 

(57) L'invention concerne un precede d'identifica- 
tion d'objets dans une image dans lequel avec 
un premier reseau de neurones (RZ1) on realise 
une localisation grossiere d'objets dans I'image 
ce qui fournit des hypotheses de localisation. 
Ensuite, un deuxieme reseau de neurones (RZ2) 
realise une localisation precise d'un objet dans 
chaque hypothese. Enfin, un troisieme reseau 
de neurones (RZ3) effectue une identification 
de chaque objet dont on connaTt avec precision 
la position. 
Applications : 

— Localisation de visages 

— Telesurveillance 

— Mesure d'audience t6l6visuelle 




Reseau de neurones pour 
la localisation fine 



FIG.1 
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port a certaines transformations (translation, rotation echelle 1 usance oivent etre invariante par rap- 

1. Extraction d'attributs morphologies coin ^ r^^*"'^ 
correspondance avec des modules de reference. ' reconnaissance par mise en 

2. Calcul de courbes granulometriques par ouverture de laquelle on mm* h» 

informations symboliques sur !es formes traitees, s U ivf u el £2£ TITT f0lJrniSSan, deS 
5 3. Approximation polygonale de contours q ui sont ensuite mis e^ ^ ! ""^ 

reference. M Ulta mis en co "espondance avec un diclionnaire de 

4. Codage des contours qui donnent une courbe caracterisSque telle que of81 «, «.« 

comprend les etapes suivantes* J S Une ima S e - caracterise en ce qu'il 

b) Etab.issemen, d'un premier ^32ZT C ° nS, " U " m ''^ baSe d '™^- 

c) A Tet2 e m « 

v<aieur maximale (+ 1,3) lorsqu une imagette est centree sur .,n nhi^t w« p- 
• une valeur minimale (- 1,3) pour une absence de detects d'ob u d ° s 'ne ' 
- une valeur Intermedial entre la valeur maximale et la Vll^ ? , ^ 
centree par rapport a un objet de TimageT IOrSqU ' Une ima9ette esl d6 " 

d) Balayaga de I'image par le premier reseau de'neurones oar onrtinnc 
^^ansnmageetlocalisa^ 

rones sont superieures a une valeur de seuil (0 B par exemnlJ ~ „ r6seau d9 neu - 

presence d'objets a un taux determine *«J£%S££ *" *' Z0 " eS de 

--^^^ 

^epr^denn^nestcom^ 

- «ablissement d'un deuxieme reseau de neurones • 

- apprentissage de ce deuxieme reseau de neurones de telle sorte n„ B „ ,a 

maximale (+ 1,3 par exemple)a pourune imaaette cenw! V f ^ nSe 56 f3SSe 3 une va,eur 
par exemple) pour une imagette decenWe ° bj8t ° U 3 Va,eur minima "> (- 1* 

Les different* objets « caracterisC * H nve «^Z*£o«J < * '' ima9e n * tant P ' US 
va suivre et dans les figures annexees qui represent aPParailr0nt P ' US cla,remer * "» **cription qui 

* !! I! 9 "' 6 !• SChSma 9en6ral du si**™ selon ('invention ■ 

De faloonf ' r , eX !.T' e de rtSMU de neur0nes selon ^nBon. 
De facon generate, I'objet de I'inventton consiste - 

• A effectuer la localisation des visages en appliquant un fDtre o„i « t r„> ■ 

chaque point de I'image. Les pointtdes sont ' r6Seau de neurones . en 

" ^ a9ee ^" amre ^^"L^^ 
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- Le r6seau de neurones est construit de sorte que son application a une image entiere puisse etre 
realisee comme un ensemble de convolutions. 

- L'apprentissage a ete realise en utilisant plusieurs techniques de presentation de la base d'appren- 
tissage. 

5 . A effectuer la reconnaissance des visages en utilisant un filtre de neurones dont la couche d'entree 

comprend plusieurs masques correspondant soit au visage global, soit a des zones signrfiantes du vi- 
sage. 

La figure 1 represente un schema general du procede de I' invention. 

Une image IM est a explorer pour detecter dans cette image un ou plusieurs objets tels que des visages. 
10 Un appareil tel qu'une camera CA enregistre cette image qui ensuite est soumise a un pre-traitement PR pour 
realiser un lissage. 

L'image est ensuite exploree par un reseau de neurones RZ1 qui a subit un apprentissage a I'aide d'une 
base d'imagettes de reference representant des objets a segmenter par rapport au fond. Cette exploration per- 
met d'identifier des zones fournissant une reponse superieure a seuil determine, c'est-a-dire les zones sus- 
15 ceptibles de contenir un objet a identifier. 

Cette exploration per met la formation d'hypotheses et constitue done une localisation grossiere. On pro- 
cede ensuite a une localisation fine en explorant, avec un deuxieme reseau de neurones RZ2, les hypotheses 
identifies precedemment eton determine la reponse maximale de chaque zone. On obtient ainsi la position 
exacte de I'objet detecte. 

20 Ensuite, un troisieme reseau de neurones R23 identif ie la representation sensiblement exacte de I'objet 

en lui superposant ce troisieme reseau de neurones. 

La figure 2 represente un r6seau de neurones tel qu'utilise dans le cadre de ('invention. It s'agit d'un reseau 

a poids partages qui comprime reformation en utilisant trois couches cachees. La couche de sortie comprend 

un seul neurone dont la valeur est+ 1,3 si un visage est present au point considere de l'image et - 1,3 sinon. 
25 Le fonctionnement du reseau de neurones est le suivant. II est decompose en couches que nous notons 

C(l, m). 

C(0, 1) est la couche d'entree de taiile 20 x 20. 

C(1, k) k = 1 ... 4 correspond a la premiere couche cachee qui estdecomposee en 4 imagettes de taille 16 x 
16. 

30 C(2, k) k = 1 ... 4 correspond a la deuxieme couche cachee qui estdecomposee en 4 imagettes de taille 8 x8. 
C{3, k) k = 1 ... 4 correspond a la troisieme couche cachee qui estformee de 4 neurones. 
C(4, 1) est la couche de sortie qui est formee d'un seul neurone. 

Ces differentes couches sont connectees les unes avec les autres e'est-a-dire qu'en cours de fonctionne- 
ment les valeurs d'un neurone sont 6tablies en fonction des valeurs des neurones avec lesquelles ce neurone 

35 est connect6. Les valeurs des neurones de la couche d'entree sont bien sflr affectees en utilisant les pixels 
de l'image a analyser. Notons N c & m >(i,j) les valeurs du neurone (ij) de la couche C(l,m). 

N c " w (i.j) = f(W; ,hl + "£w;:-:; >y+ai N c|0 "(i + 2-x,j + 2-y)) 

i=0... 15, j = 0... 15,k= 1...4 

N C(2 ' w (iJ)=f(W^ kl + *"lW [^N cnM (2+xv 2j+ V » 

O.y* 0 

i=0...7,j=0...7,k=1...4 

50 

N caM (QQ= f (W ^ k *+ ""'Iw 4 ;^, ,N cu - fc, {x.y)) 

x- 0,y= 0.1= 1 

55 k=1...4 
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N^V(QC3 = f{W: 4 ' , + Xw; i V , N c,J "(0.0)) 



1= 1 



k=1.„4 

Les coefficients W {-> et W jj sent les poids du reseau. f est une fonction non-lineaire typiquement une 
s.gmoide. Pour la structure du reseau que nous utilisons il y en a 1157 differents par exemple 

La structure de reseau que nous venons de decrire a ete particulierement etudiee et tout specialement 
les points suivants : 

. Taille de la couche d'entree : elie a ete adaptee de sorte que la couche d'entree ne soil pas trop grande 
pour que les temps de calcul restent raisonnables et ne soit pas trop petite pour que la presence d'un 
visage dans une image de cette taille puisse etre percue. Be a ete choisie carre pour que le systeme 
ait la possibility d'etre invariant par rotation. 
. Utilisation de poids partages : les couches ne sont pas totalement connectees mais simplement connec- 
ts en utihsant des masques de taille p x q qui sont partages. Ceci a I'avantage de conserver un nombre 
de degres de liberie suffisamment petit et que I'application du reseau de neurones a une image entiere 
sera equivalent a un ensemble de convolutions. 
Ce reseau de neurones est soumis a un apprentissage. L'apprentissage correspond a la determination 
des poids du reseau. Elle est realisee en utilisant ralgorithme classique de retro-propagation du gradient Le 
pnncipe est le suivant : dans un premier temps, les poids sont initialises aleatoirement. Ensuite des exemples 
chois,s su.vant des methodes que nous detaillerons ci-dessous dans la base d'apprentissage sont preserves 
au reseau c est-a-dire que la valeur des differents neurones est determinee en considerant que les neurones 
nc«iwn U m 6ntr6S ° nt 165 Val6UrS f ° Urni6S Paf rexern P !e - NW-W) est alors determinee. La valeur desiree 
P ' ' ^ pour cet exernpls est conn^ Puisqu'ii s'agit d'un exemple issu de la base d'apprentissaqe La auan- 
t.teE(W) = (NC(4,) ( o > 0)-DC(,i)(0,o)) 2 esta.ors considers commeuneerreura^ 

des poids et il est done possible de la minimiser en calculant et en remplacant les poids W par W - G 

aE(W) 

30 avV ■ Cette operation correspond a I'algorithme bien connu de descente de gradient 

L'apprentissage est particulierement crucial. Des resultats corrects sont obtenus en effectual une selec- 
tion des exemples dans la base d'apprentissage. 
La base d'apprentissage a ete 6tabli ainsi : 

. Une base de donnees de 1791 images chacune contenant I'image d'un visage a et6 constitute 
. Un filtre de lissage est applique a I'image. 

. Les zones de I'image correspondant aux visages ont ete extraites. 

. Un ensemble d'images ne contenant pas de visages ont ete acquises et 1791 imagettes en ont ete ex- 
traites. Le meme traitement que pour les imagettes correspondant aux visages a ete applique Nous ap- 
pellerons ulterieurement ces imagettes, imagettes de fond. 
Deux phases complementaires d'apprentissage ont ete mises en place: 
1ere phase : apprentissage en vue de realiser une localisation grossiere. 

Les imagettes de la base d'apprentissage sont presentees au reseau de neurones soit parfaitement cen- 
ses so.t avec un decalage. Lorsque les imagettes correspondent a un visage parfaitement centre, la reponse 
des,r6e qui est ind.quee au reseau de neurones est 1 .3. Lorsqu'elles correspondent a des visages un peu de- 
crees, la reponse est inferieure a 1.3 et correspond a une exponendelle decroissante en fonction de Im- 
portance du decentrage. Lorsque I'imagette correspond a un fond, la reponse indiquee est -1 3 Le but vise 
est d entramer le reseau a repondre un peu lorsqu'il rencontre un visage un peu decentre et a repondre de 
maniere max.male lorsqu'il rencontre un visage parfaitement centre. Ainsi lors de I'application du reseau de 
neurones aune image entiere, la reponse obtenue sera progressive tout autour du visage. Les zones corres- 
pondant a des visages seront done assez faciles a detecter. L'inconvenient est que I'ensemble des poids ainsi 
obtenu ne peut pas donner precisement la position du centre du visage. 
2eme phase : apprentissage en vue de realiser une localisation fine. 

tr^ L !M im ! 9etteS !l! la , baSe d ' ap P rentissa 9 e sont P^sentees au reseau de neurones soit parfaitement cen- 
ses et la reponse de SI ree est 1.3, soit plus ou moins decentrees et la reponse desiree est -1 3 Les imaqettes 
de fond ne sont pas presentees. Les poids ainsi obtenus forment un reseau capable de localiser precisement 
un v.sage lorsqu'ils observent des visages plus ou moins bien centres. II s'agit done de I'outil necessaire pour 
realiser une localisation precise. 
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Dans les deux cas, la structure du reseau est la meme. 

Au cours de I'apprentissage, des imagettes correspondant a des rotations des imagettes normales sont 
aussi presentees au reseau. Le but recherche est de rendre le reseau insensible a I'orientatton du visage ob- 
serve dans rimage. 

5 Ensuite, pour analyser une image, le reseau est utilise en I'appliquant a una image entiere ou plus preci- 

sement a I'ensemble des images qu'il est possible de former avec rimage acquises en la sous-echantillonnant 
avec une dizaine de facteurs d'echelle entiers. 

L'application demande done les etapes suivantes : 

. Acquisition d'une image qui est lissee et sous-echantillonnee. II en resulte une dizaine d'images pre- 
10 sentant des resolutions differentes (ou des taux de reduction/agrandissement differents). 

. Application du premier reseau de neurones a chacune des images. Le resultat est un ensemble d'images 
correspondant a la reponse du reseau de neurones. Dans ces images, les zones pour lesquelles la re- 
ponse depasse un certain seuil (0,8 par exemple) sont detectees et extraites. Elles forment un premier 
ensemble d'hypotheses. 

15 . Les zones qui ont ete determinees a I'etape precede nte sont presentees au deuxieme reseau de neu- 

rones. Tous les points pour lesquels la reponse obtenue depasse un certain seuil sont consideres com me 
des hypotheses de visage et la zone correspondante dans I'image initiale est determinee en tenant 
compte du facteur d ' echantillonnage. 
. L'ensemble des hypotheses formees est considere et un sous-ensemble en est extrait de sorte que les 
20 differentes zones qui leur correspondent ne s'intersectent pas. 

Pour la reconnaissance de visage, on utilise aussi un reseau a poids partages qui comprime ('information 
en utilisant plusieurs couches cach6es. La couche de sortie comprend p neurones, p est le nombre de per- 
sonnes distinctes presentes dans la base de donnees. La couche d'entree estformee de plusieurs imagettes 
qui correspondent soit au visage dans son entier soit a des parties de visage. 
25 La phase d'apprentissage est realises en utilisant la meme base de donnees que pour la localisation. Cette 

base comprend 28 personnes differentes par exemple. 

Le pre-traitement des images inclut I'utilisation d'un f iltre de lissage et une etape de normalisation qui rend 
I'image observee independante de la position etde I'etendue des sources lumineuses. 

Le reseau de neurones est applique sur les zones de I'image pour lesquelles un visage a ete detecte. Le 
30 neurone de sortie pour lequel la reponse est maximale est declare correspondre a la personne reconnue. 

L'invention prevo it ensuite lorsqu'un visage a ete localise, deluiappliquerun troisieme reseau de neurones 
ayantsubi un apprentissage avec des visages types en vue d'identifier ce visage. 

La description qui precede a ete faite dans le cadre de la reconnaissance de visages. Cependant, le sys- 
teme applicable a la reconnaissance de tout objet. 
35 De meme, il n'a pas ete precise si I'image a analyser est constituee de pixels (elements images) ou s'il 

s'agit d'une image analogique. Le systeme est applicable a tout type d'images. 



Revendications 

40 

1. Procede d' identification d'objets dans une image, caracterise en ce qu'il comprend les etapes suivantes : 

a) Acquisition d'imagettes representant chacune une representation possible des objets a detecter, les 
differentes imagettes etant toutes de meme dimension et constitution d'une base d'apprentissage. 

b) Etablissement d'un premier reseau de neurones. 

45 c) Apprentissage du premier reseau de neurones de telle sorte que sa reponse fournisse : 

- une valeur maximale (+ 1,3) lorsqu'une imagette est centree sur un objet de I'image ; 

- une valeur minimale (- 1,3) pour une absence de detection d'objet dans une image; 

- une valeur intermediate entre la valeur maximale et la valeur minimale lorsqu'une imagette est 
decentree par rapport a un objet de I'image ; 

50 d) Balayage de ('image par le premier reseau de neurones, par portions d'images, pour detecter un ou 

plusieurs objets dans I'image et localisation des zones pour lesquelles les valeurs res u I tats du reseau 
de neurones sont superieures a une valeur de seuil (0,8 par exemple) ce qui donne des zones hypothe- 
ses de presence d'objets a des taux determines d'agrandissement/reduction. 

- reduction ou agrandissement de I'image a un premier taux determine et repetition de la phase 
55 precedents de balayage, et ainsi de suite a differents taux de reduction ou d'agrandissement 

2. Procede selon la revendication 1 , caracterise en ce qu'il comporte les etapes supplementalres suivantes : 

- etablissement d'un deuxieme reseau de neurones; 

5 
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- apprentissage de 6e deuxieme reseau de neurones de telle sorte que sa reoonse «p a 
5 ' 32? S" ' a reVendiCa,i ° n 1 ' tmm ™* " 06 qUe teS ima ^ ainsi que .es imaget.es son, compo- 

6 - ^rsissss en ce que ,a r6duo,ion ou ,,a9randi ~ de — - 

7. Precede selon la revendication 1, caracterise en ce que chaque imagette est de forme carree. 

8. Precede selon la revendication 1. caracterise en ce que les objets a detecter son, des visages 
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Base d'apprentissage 




Identification 



FIG.1 
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